23. 其他要考虑的事情:如果我们样本很大怎么办?
如果我们样本很大怎么办?
解读任何统计结果 (这一点常被忽视) 的最重要一方面在于确保样本代表你感兴趣的总体。
尤其是在当今计算机时代收集数据的方式, 应答偏差 非常重要,要牢记于心。2016年美国大选中,许多媒体进行的民意调查与实际民意调查存在惊人差异。你可以从 这里 了解反应偏差的作用。
假设检验与机器学习
样本容量很大时,假设检验会产生 统计意义 最小的发现。然而,这些发现可能根本不具有现实意义。
例如,假设你在一项针对 100 多万人的研究中发现 从统计学上来说 更多人喜欢啤酒 1,而不是啤酒 2。根据这个结果,你决定开店售卖啤酒 1。然后你发现啤酒 1 的流行度只比啤酒 2 高出 0.0002% (但是在样本容量很大的情况中,这个具有统计意义)。实际上,你应该开店售卖两种啤酒。
假设检验采用综合方法,得出基于数据的结论,因为这些检验旨在了解总体参数 (即综合的总体数值)。
另外,机器学习技巧采用个体方法得出结论,因为他们旨在预测每个特殊数据点的结果。
在这节课的最后,你将会学习机器学习的两种最基础方法: 线性 回归和 逻辑 回归。